收集人类判断是目前最可靠的自然语言生成系统评估方法。当申请衡量所生成文本的质量方面时,自动指标已经报告缺陷,并且已被证明与人类判断不佳。然而,人类评估是时间和成本密集,我们缺乏关于设计和进行人体评估实验的共识。因此,需要在评估自然语言生成系统时有效地收集人类判断的简化方法。因此,当在相对比较设置中评估生成的输出时,我们介绍了一种动态方法来测量所需的人类注释数量。我们提出了一种基于代理人的人类评估框架,以评估多种标签策略和方法来决定模拟和众包案例研究中的更好模型。主要结果表明,可以在不同标签策略上具有高概率来制定关于卓越模式的决定,其中每个任务分配单个随机工人需要最小的整体标记努力,因此是最低的成本。
translated by 谷歌翻译
苏黎世认知语言处理语料库(Zuco)提供了来自两种读取范例,正常读取和特定任务读数的眼跟踪和脑电图信号。我们分析了机器学习方法是否能够使用眼睛跟踪和EEG功能对这两个任务进行分类。我们使用聚合的句子级别功能以及细粒度的单词级别来实现模型。我们在主题内和交叉对象评估方案中测试模型。所有模型都在Zuco 1.0和Zuco 2.0数据子集上进行测试,其特征在于不同的记录程序,因此允许不同的概括水平。最后,我们提供了一系列的控制实验,以更详细地分析结果。
translated by 谷歌翻译
贝叶斯错误率(BER)是机器学习中的基本概念,这些概念量化了任何分类器可以在固定概率分布上实现的最佳精度。尽管对BER的下限和上限的建筑估算有多年的研究,但这些通常只比较了具有已知概率分布的合成数据集,留下了两个关键问题:(1)它们在现实世界数据集中执行程度? (2)他们有多实用?回答这些并不琐碎。除了对现实世界数据集未知BER的明显挑战之外,任何BER估算器都需要克服的两个主要方面,以便适用于现实世界的环境:(1)计算和采样复杂度,以及(2)超参数的敏感性和选择。在这项工作中,我们提出了第一个分析和比较任何现代现实世界数据集的BER估计的主要框架,具有未知概率分布。我们通过在一系列不同的噪声水平上注入受控的标签噪声并对一系列不同的噪声水平进行多种评估来实现这一点,这是通过理论结果支持的,这允许借鉴关于BER的演变的结论。通过在6个常用的计算机视觉和NLP域的常用数据集上实施和分析7个多级BER估计,FEYBEE允许对这些估算器进行全面研究,清楚地识别每个的优势和弱点,同时在任何未来的BER估算器上轻松部署。
translated by 谷歌翻译
The goal of this paper is to detect objects by exploiting their interrelationships. Rather than relying on predefined and labeled graph structures, we infer a graph prior from object co-occurrence statistics. The key idea of our paper is to model object relations as a function of initial class predictions and co-occurrence priors to generate a graph representation of an image for improved classification and bounding box regression. We additionally learn the object-relation joint distribution via energy based modeling. Sampling from this distribution generates a refined graph representation of the image which in turn produces improved detection performance. Experiments on the Visual Genome and MS-COCO datasets demonstrate our method is detector agnostic, end-to-end trainable, and especially beneficial for rare object classes. What is more, we establish a consistent improvement over object detectors like DETR and Faster-RCNN, as well as state-of-the-art methods modeling object interrelationships.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
大量培训数据是最先进的NLP模型高性能的主要原因之一。但是,在培训数据中,什么导致模型做出一定的预测?我们试图通过提供一种通过因果框架来描述培训数据如何影响预测的语言来回答这个问题。重要的是,我们的框架绕过了重新培训昂贵模型的需求,并使我们能够仅基于观察数据来估计因果效应。解决从验证的语言模型(PLM)中提取事实知识的问题,我们重点介绍了简单的数据统计数据,例如共发生计数,并表明这些统计数据确实会影响PLM的预测,这表明此类模型依赖于浅启发式方法。我们的因果框架和结果表明,研究数据集的重要性以及因果关系对理解NLP模型的好处。
translated by 谷歌翻译
机器学习显着增强了机器人的能力,使他们能够在人类环境中执行广泛的任务并适应我们不确定的现实世界。机器学习各个领域的最新作品强调了公平性的重要性,以确保这些算法不会再现人类的偏见并导致歧视性结果。随着机器人学习系统在我们的日常生活中越来越多地执行越来越多的任务,了解这种偏见的影响至关重要,以防止对某些人群的意外行为。在这项工作中,我们从跨学科的角度进行了关于机器人学习公平性的首次调查,该研究跨越了技术,道德和法律挑战。我们提出了偏见来源的分类法和由此产生的歧视类型。使用来自不同机器人学习域的示例,我们研究了不公平结果和减轻策略的场景。我们通过涵盖不同的公平定义,道德和法律考虑以及公平机器人学习的方法来介绍该领域的早期进步。通过这项工作,我们旨在为公平机器人学习中的开创性发展铺平道路。
translated by 谷歌翻译
世界各地的隐私法律和法规的景观是复杂而不断变化的。国家和超国家法律,协议,法令和其他政府发行的规则构成了公司必须遵循的拼凑而成才能在国际上进行运作。为了检查该拼凑而成的状态和演变,我们介绍了1,043条隐私法,法规和准则的政府隐私指示语料库或GPI语料库,涵盖了182个司法管辖区。该语料库可以对法律焦点进行大规模定量和定性检查。我们检查了创建GPI的时间分布,并说明了过去50年中隐私立法的急剧增加,尽管较细粒度的检查表明,增加的速度取决于GPIS所说的个人数据类型。我们的探索还表明,大多数隐私法分别解决了相对较少的个人数据类型,这表明全面的隐私立法仍然很少见。此外,主题建模结果显示了GPI中常见主题的普遍性,例如财务,医疗保健和电信。最后,我们将语料库释放到研究界,以促进进一步的研究。
translated by 谷歌翻译
许多深厚的增强学习算法依赖于简单的探索形式,例如经常在连续控制域中使用的加性动作噪声。通常,该动作噪声的缩放因子被选为高参数,并在训练过程中保持恒定。在本文中,我们分析了学到的政策如何受到噪声类型,比例和缩放系数的影响。我们考虑了两种最突出的动作类型:高斯和ornstein-uhlenbeck噪声,并通过系统地改变噪声类型和规模参数以及测量感兴趣的变量(例如预期的政策回报和策略回报)来执行巨大的实验活动。探索期间的状态空间覆盖范围。对于后者,我们提出了一个新颖的状态空间覆盖量$ \ operatatorName {x} _ {\ Mathcal {u} \ text {rel}} $,对边界人工制品比以前提出的措施更强大。较大的噪声尺度通常会增加状态空间覆盖率。但是,我们发现使用较大的噪声量表增加空间覆盖范围通常是无益的。相反,在训练过程中降低噪声量表可以减少差异并通常改善学习绩效。我们得出的结论是,最好的噪声类型和尺度是环境取决于的,并且根据我们的观察结果,得出了指导选择动作噪声作为进一步优化的起点的启发式规则。
translated by 谷歌翻译
我们提出了一种新颖的优化框架,其基于用户描述和美学作证给定图像。与现有的图像裁剪方法不同,其中通常会列举深网络以回归裁剪参数或裁剪动作,我们建议通过重新修复在图像标题和美学任务上的预先训练的网络,而无需任何微调,我们建议直接优化裁剪参数。从而避免训练单独的网络。具体而言,我们搜索最大限度地减少这些网络初始目标的组合损失的最佳作物参数。为了使优化表提出三种策略:(i)多级双线性采样,(ii)退火的作物区域的规模,因此有效地减少了多种优化结果的参数空间,(iii)聚合。通过各种定量和定性评估,我们表明我们的框架可以产生与预期用户描述和美学令人愉悦的作物。
translated by 谷歌翻译